#LLM Agent话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

2个月前

睡前，简短的跟 oai 聊了会 episodic memory。 oai 的秒出图功能非常赞，虽然线画的不工整，但 llm agent 部分准率挺高的，基本做到了既快又好。

2个月前

我有个单向的哥们，最近分享了他在2025年的几个第一性原理： 1. LLM token一定会越来越便宜，模型越来越强大，记住，所有做LLM Agent的人，都必须思考如何用10~1000倍的token带来革命，而不是他妈跟个傻逼似的天天想着省token； 2. chatbot的形式一定会被消灭，no chatbot revolution才是正确方向，一切AI应用不可能、不应该、绝对不是一个个大号聊天机器人，一个个大对话框等着人大段大段往里敲字，记住，所有AI产品必须重新设计，一切chatbot AI应用必定会被改写成NO CHATBOT形式，无一例外，chatbot的产品形态必然会彻彻底底、完完全全地淘汰，或者那个傻逼一样的对话框，至少作为二等公民出现； 3. AI助手一定不能用“按个按钮”、“截个图”、“上传个文件”，再写个长长的prompt的形式出现，让用户解决个问题，先让用户点点按按十几次， AI助手一定是具有强侵入性的，一定能主动嗅探一切环境，吞掉一切数据和信息，一定会主动在后台观察一切操作和行为——并且在疑似需要帮助的时候，主动弹出个对话框，用户一键确认后，主动接管，主动解决一切问题，而绝不应该像准备个考试一样，准备文件、准备截图、准备一大堆按钮、准备一大长串prompt，让用户跟个大傻逼似的，手忙脚乱地在那儿表演，总而言之，无论是商业落地的AI Agent，还是各种办公软件、工具、生活类的AI Agent，一个个不仅是傻逼兮兮的大黑框chatbot，而且要用户手动输入一大堆文件、图表、链接、信息，再敲一大段prompt——这些全都走了大弯路， toC的无缝衔接强入侵的主动AI Agent助手，完完全全不会给你任何告诉他的机会，而是让AI Agent主动判断你是否需要我，直接给你一个大大的对话框，简单描述一下“我计划怎么帮助你”——你点一下确定，它来解决后面所有的事情。 4. 一切能用coding解决的问题，都是SWE Agent能解决的问题，也就是说，都可以直接拿claude code这类工具套壳来用， SWE Agent这个形态，最擅长解决的问题，就是在一个确定的环境（一台机器、几台机器、若干仿真环境、一套terminal里的编译器/脚手架/运行环境/包管理、profiling和debugging方法）解决的问题，而用coding解决的问题，从来都不止coding，一切VHDL/Verilog等电路设计、电路simulation和validation、一切类似labview和matlab simulink中可以仿真的电机、信号、示波器等等模块，甚至ansys和CAD这类工具，还有大量data science和计算的问题，以及用lean或者formal-proof解决一些proof-based的数学和模型问题，都可以转化成一些API和coding解决的问题，然后让SWE Agent来解决，这类问题可以叫做“一台机器上的确定环境下的问题”，这类问题的特点是，可以靠LLM的智能不断拆分成一大堆subtasks，然后在本地环境下反复尝试、反复试错、反复看output、反复试验结果，失败后再换一个新的approach； 5. full self coding（…）就是基于上面所有第一性原理的一个试验。我将会设计一套侵入式试验，让10~500个ai agent组成一组，给一个github项目找出所有潜在的问题，包括文档、测试、修bug、优化、重构、完成todo list、加功能、加API等等，让10~100个agent并行完成这个repo潜在需要完成的所有任务，并且让至少10组这样的agent去github上面公开贡献，等于在没有任何人为输入prompt的前提下，造出来1000~5000个agent在开源世界源源不断地做出贡献，就死死赖在github上面，尝试修复一切可能修复的潜在问题，做出贡献。请你记住full self coding是最坚决贯彻test-time scaling law的行为， full self coding坚决相信，人是ai agent世界最傻逼、最慢、错误最多、判断失误最高的存在，让程序员手敲prompt，无异于给AI Agent拖后腿，只有先分析出问题，然后让10~500个agent同时并行运行，才能最大化执行的效率，最快速度解决已经发现的问题，无休止地为github提供潜在的有价值贡献——并且最关键的是，把“敲prompt的程序员”这个最垃圾、最慢、出错最多的环节彻底消除； 6. full self coding最大的瓶颈，一个是token价格过高，一个是目前几乎所有主流供应商，LLM inference速度过慢，所以我最后的一个想告诉大家的价值观是： groq、sambanova、cerebras这种在片上堆满几个GB的SRAM，在inference上效率是nvidia、amd、google TPU这些落后架构的10~50倍，这是test-time scaling law的最后一环，如果人类在claude code、gemini cli上全面接入groq、sambanova、cerebras上host的模型，所有速度都会再快10~50倍。

#LLM Agent #No Chatbot Revolution #主动AI助手 #SWE Agent #Full Self Coding

Oasis Feng

4个月前

vibe emojing 🤣 这是一段 GitHub Copilot CLI 生成的投喂给 LLM agent 的 prompt 代码，可能 Claude 真觉得对自己的同胞而言，「一眸及千言」。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#GitHub Copilot CLI #LLM Agent #Claude #prompt代码 #vibe emojing

赵纯想

4个月前

我把LLM Agent Chat输入框里经典的选择模型和选择思考方式的按钮，浓缩成“选择英雄”按钮了。

#LLM Agent #Chat输入框 #选择模型 #选择思考方式 #选择英雄按钮

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4个月前

Shunyu Yao用Tree of Thought来解决ReACT内化问题，1950s的那个年代的人计算思维太牛比了。 NTP天然可以解决会话conversational的，只需要一些instruction following和SFT就行，这似乎说明语言功用天生是其社会解释性，这是直觉。（Alec Radford GPT NTP/语义解析）而利用NTP进入思考空间，则需要CoT轨迹数据进行RLHF/RLVR，思考轨迹数据在commoncrawl是比较少的。DeepSeek的GRPO是个非常smart的RL算法（Jason Wei 验证者定律） NTP语言进入行动空间，则更困难。行动空间在人来说是天生具身的。所以要借助一些符号主义的算法来做agentic LLM。（ReACT/ToT/Shunyu Yao）感觉上LLM agent呼之欲出了，基础已经铸就。 whats next？

#Shunyu Yao #Tree of Thought #React #NTP #LLM Agent

yan5xu

6个月前

这篇文章其实在脑子里酝酿相当长一段时间。因为记忆碎片完美地把llm agent给具像化，不再更新的世界知识，有限的上下文窗口，如何构建外部记忆系统，以及来自信息的投毒，这几乎就是agent入门的完美教程。

#多智能体之争：Anthropic生态VS单智能体· 81 条信息

#LLM Agent #外部记忆系统 #信息投毒 #上下文窗口限制

Susan STEM

6个月前

AI Agent 到底是什么？从 Jennings 定义谈起 “AI Agent”这一术语虽在近年大热，但其核心概念早已由 Nicholas R. Jennings 与 Michael Wooldridge 在 1995 年的《Intelligent Agents: Theory and Practice》中系统确立。他们将“智能体”定义为：一个嵌入特定环境中的计算系统，能够在该环境中自主行动以实现其设计目标。这一定义成为多智能体系统（MAS）研究的基础，并提出四项衡量智能体的关键属性：自主性（能独立运行）、反应性（感知并响应环境变化）、前瞻性（基于目标采取主动行动）与社会性（能够协作与沟通）。然而，在当下的工程实践中，要真正实现这四大属性仍具有相当高的难度。尽管 ReAct、AutoGen、LangGraph、CrewAI 等主流框架纷纷打出“Agent”旗号，它们多数仍停留在“语言模型 + 工具调用”的阶段，缺乏结构化的状态封装、计划机制与交互协议。这些系统通常依赖自然语言记忆作为状态存储，对环境的感知局限于文本输入输出，目标与计划的建模大多被简化甚至省略，而协作机制也往往停留在对话模拟层面，缺乏真实的社会行为协议与组织控制结构。换句话说，当代 LLM Agent 多数只能在表层满足 Jennings 框架中的“工具调用”与“表面协作”，而在真正的状态感知、计划能力、环境互动与协作协议等方面仍存在明显工程落差。它们更像是 prompt 的包装器，而非具备认知与调度能力的结构性智能体。要真正构建接近 Jennings 理想的 AI Agent，必须引入可解释的状态模型与持久记忆结构、明确的计划调度机制、标准化的交互协议以及多轮对话中的身份与行为一致性。只有当智能体具备了这些结构能力，它才不再是一个被动执行的语言函数，而是一个真正能够协同、规划、反应并自主演化的结构系统单元。真正的智能体到底值不值得投入研究？还是说，它会不会最终成为一个耗尽心力、却注定走入死胡同的幻象？这个问题越来越像一面照妖镜。现实世界里，有太多曾被寄予厚望的底层技术，最终悄无声息地被市场淘汰、被工程复杂性吞噬。Jennings 所定义的理想型智能体，正面临类似的命运风险。它拥有令人敬畏的结构理想—— 🧱 结构性：每一个模块边界清晰、可组合、可迁移； 🧠 状态性：具备可追踪、可持久、可调度的运行状态； 💾 记忆性：融合语义唤醒与行为经验的双系统记忆机制； 🧭 路径性：支持非线性、多策略、可重构的执行结构； 🤖 调度性：能够统一调度工具、任务、子 Agent； 🔁 自演化：具备反思、失败容忍、成长与优化能力。这简直就是我心中最理想的“结构人格”，我是无比憧憬的。这个甚至能完美解决上下文的问题。看起来无比完美，却让人光是读完就头皮发麻。工程难度极高，构建成本惊人，调试流程复杂，状态不可控，行为难以解释。我也怀疑：这样一个理想结构真的能落地吗？它真的有价值吗？（2/n)

#AI Agent #智能体 #Jennings定义 #LLM Agent #多智能体系统